回帰分析

下のエクセル表は新潟県でおこなわれた予察のためのニカメイガ調査である(小嶋他, 1996)。フェロモントラップを使って、5月下旬から6月中旬まで発生している越冬成虫(♂のみ)を複数のトラップで捕殺し、平均値を記録した。続いて越冬成虫が産下した第一世代幼虫が引き起こすイネの葉鞘変色茎発生の有無を、6月下旬に一斉に複数のほ場で各ほ場25株ずつ調査して割合を計算した。また、第一世代幼虫の発育に関連すると思われる6月の平均気温・降水量を気象庁からダウンロードした(www.jma.go.jp/jma/)。

調査地 測定値 1987年 1988年 1989年 1990年 1991年
西川 平均誘殺数(匹) 676 436 268 347 396
西川 イネ葉鞘変色茎発生率(%)(ほ場数) 12.7(67) 8.5(67) 2.8(67) 3.8(67) 6.3(67)
西川 6月平均気温(℃) 21.5 20.3 19.8 21.9 22.1
西川 6月総降水量(mm) 52 100 89.5 158 135
柏崎 平均誘殺数(匹) 220 225 125 84 97
柏崎 イネ葉鞘変色茎発生率(%)(ほ場数) 7.0(34) 3.4(34) 3.5(34) 1.6(34) 1.6(34)
柏崎 6月平均気温(℃) 20.3 19.3 19 21 21.3
柏崎 6月総降水量(mm) 101 99 121 161 166
小千谷 平均誘殺数(匹) 754 838 661 658 215
小千谷 イネ葉鞘変色茎発生率(%)(ほ場数) 6.1(40) 7.3(40) 3.3(40) 4.2(40) 1.6(40)
小千谷 6月平均気温(℃) 21 20 19.3 21.3 21.7
小千谷 6月総降水量(mm) 75 160 123 228 170

被害率はゼロ~1.0の間でしか値を取りえないため、-∞から+無限大まで取りうる正規分布と大きくかけ離れる。この様な割合データは、往々にして正の平方根を取った後、さらに逆正弦変換することで正規分布に近づけることが出来る。かつて、回帰分析といえば直線回帰のことで、一般のエンドユーザは正規分布を仮定できる場合だけ実行できた。変換後の割り合いデータを目的変数にすれば、直線回帰を行うことも可能だろう。

しかし、統計ツールが身近になり気軽に使えるようになったため、この様な割り合いデータは、そもそも調査株ごとの被害発生有/無の2値応答変数として、ロジスティック回帰を行うのが普通である。調査株ごとのロジスティック回帰では、解析の中に何株調査したか調査量の情報も評価することが出来るため、人為的で複雑な変数変換を行うよりも優れている。

#install.packages("glmmML") # glmmMLをインストールする
library(glmmML)
## データの打ち込み、手入力
Chilo <- data.frame(
  years = rep(1987:1991, 3),                                                      ## 調査年
  sites = c(rep("Nishikawa", 5), rep("Kashiwazaki", 5), rep("Ojiya", 5)),         ## 調査地
  phero = scale(c(676,436,268,347,396,220,225,125,84,97,754,838,661,658,215)),    ## フェロモントラップ捕獲数平均
  chosa = c(rep(67*25,5),rep(36*25,5),rep(40*25,5)),                              ## 調査株数、調査ほ場数×25株
  higai = c(0.127,0.085,0.028,0.038,0.063,0.07,0.034,0.035,0.016,0.016,0.061,0.073,0.033,0.042,0.016), ## 被害率
  Jun.T = scale(c(21.5,20.3,19.8,21.9,22.1,20.3,19.3,19,21,21.3,21,20,19.3,21.3,21.7)), ## 6月平均気温(気象庁)
  Jun.P = scale(c(52,100,89.5,158,135,101,99,121,161,166,75,160,123,228,170))           ## 6月総降水量
)
## ロジステック回帰モデル構築のための%→発病・健全株数
Chilo$pos <- round(Chilo$higai*Chilo$chosa, 0)  ## 被害株数
Chilo$neg <- Chilo$chosa - Chilo$pos            ## 被害無し株数

## 通常の一般化線形モデル(二項リンク)
# res.GLM<- glm(cbind(pos, neg)~ phero+Jun.T+Jun.P, data = Chilo, family=binomial)
# summary(res.GLM)
## 一般化混合モデル(二項リンク、場所がランダム効果)
res.GLMM<- glmmML(cbind(pos, neg)~ phero+Jun.T+Jun.P, data = Chilo, family=binomial, cluster = sites)
summary(res.GLMM)

一般化混合モデルのアウトプット

構築された一般化混合モデル(ロジスティック回帰)

Call:  glmmML(formula = cbind(pos, neg) ~ phero + Jun.T + Jun.P, family = binomial,      data = Chilo, cluster = sites) 

各々予測変量にかかる係数.事前に予測変量を基準化してあるので絶対値が一番大きな係数0.79の越冬世代捕獲数(phero)がもっとも大きな影響を持っていそう.Z (Wald統計量)を使うと、係数の信頼区間が0をまたぐかどうかの検定が出来る.pheroのみがゼロをまたがない

                coef se(coef)       z Pr(>|z|)
(Intercept) -3.102939  0.32875 -9.4386    0.000
phero        0.793366  0.08378  9.4700    0.000
Jun.T        0.007556  0.04653  0.1624    0.871
Jun.P       -0.061525  0.05137 -1.1978    0.231

ランダム効果は分散が0.5649の正規分布

Scale parameter in mixing distribution:  0.5649 gaussian 
Std. Error:                              0.239 

ランダム効果が有効かどうかの尤度比テストかなり有意

       LR p-value for H_0: sigma = 0:  5.454e-12 

残差、自由度とモデルの赤池情報量AIC

Residual deviance: 71.12 on 10 degrees of freedom    AIC: 81.12